深度学习总结(五)——各优化算法

最新推荐文章于 2024-04-28 03:14:29 发布

manong_wxd

最新推荐文章于 2024-04-28 03:14:29 发布

阅读量1.1w

点赞数 7

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/manong_wxd/article/details/78735439

版权

这里写图片描述

一、各优化算法简介

1. 批量梯度下降（Batch gradient descent，BGD）

$θ = θ - η \cdot \nabla_θ J(θ)$
每迭代一步，都要用到训练集所有的数据。

2. 随机梯度下降（Stochastic Gradient Descent，SGD）

$θ = θ - η \cdot \nabla_θ J(θ; x^{(i)}; y^{(i)})$
通过每个样本来迭代更新一次，以损失很小的一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。

缺点：

对于参数比较敏感，需要注意参数的初始化
容易陷入局部极小值
当数据较多时，训练时间长

3. 小批量梯度下降（Mini Batch Gradient Descent，MBGD）

$θ = θ - η \cdot \nabla_θ J(θ; x^{(i:i+n)}; y^{(i:i+n)})$
为了避免SGD和标准梯度下降中存在的问题，对每个批次中的n个训练样本，这种方法只执行一次更新。

4. Momentum

$v_t = γv_{t-1}+η \cdot \nabla_θ J(θ)$
$θ=θ-v_t$
在参数更新时，一定程度上保留更新之前的方向。在训练的过程中，参数的更新方向十分依赖当前的batch，因此不稳定。加入momentum后，能够让参数一定程度上按照之前变化方向进行更新，使参数更稳定的更新。

优点：

下降初期时，使用上一次参数更新，下降方向一致，乘上较大的μ能够进行很好的加速
下降中后期时，在局部最小值来回震荡的时候，gradient→0，μ使得更新幅度增大，跳出陷阱
在梯度改变方向的时候，μ能够减少更新总而言之，momentum项能够在相关方向加速SGD，抑制振荡，从而加快收敛

5. Nesterov（NAG）

$v_t = γv_{t-1}+η \cdot \nabla_θ J(θ-γv_{t-1})$
θ=θ−vt

最低0.47元/天解锁文章

关注

7
点赞
踩
59

收藏

觉得还不错? 一键收藏
0
评论
深度学习总结(五)——各优化算法

一、各优化算法简介1. 批量梯度下降（Batch gradient descent，BGD）θ=θ−η⋅∇θJ(θ)θ = θ - η \cdot \nabla_θ J(θ) 每迭代一步，都要用到训练集所有的数据。2. 随机梯度下降（Stochastic Gradient Descent，SGD）θ=θ−η⋅∇θJ(θ;x(i);y(i))θ = θ - η \cdot \nabla_θ J(θ;
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。